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(54) Eff izientes Verfahren zur Geschwindigkeitsmodif ikation von Sprachsignalen 

(57) Die Erfindung betrrfft ein Verfahren zur 
Geschwindigkeitsmodifikation von Sprachsignalen, ins- 
besondere digitalisierten Sprachsignalen. Bei diesem 
Verfahren wird ein analoges Sprachsignal digitalrsiert 
und in einem Speicher gespeichert. AuBerdem wird ein 
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einem zwerten, sich direkt an den ersten Abschnitt 
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Beschreibung 

Gegenstand der Erfindung ist ein Verfahren zur Geschwindigkertsnxxlifikation von Sprachsignalen im Zeitbereich, 
insbesondere eine effiziente Overlap- Add -Methode. 

5 in verschiedenen Bereichen der Verarbeitung von Sprach- und Aucfiosignalen ist eine VerSnderung der Wiederga- 
begeschwindigkert dieser Signale erwunscht, mdglichst ohne daB damit eine Beeirrtrachtigung ihrer Naturlichkett und - 
im Fall von Sprache - ihrer Verst&ndlichkeit verbunden ware. Dieses Ziel, den Klangcharakter zu erhalten, kann man 
aus technischer Sicht folgendermaBen fbrmulieren: Trotz einer Modrfikation der Zertskala dieser Signale sollen ihre 
Kurzzeitspektraieigenschaffen unverdndert bleiben. insbesondere bedeutet das fur Sprachsignale, daB Grundf requenz 

10 und Formanten bei der Geschwindigkertsrnodifikalion erhalten bleiben mussen. 

Die Zettstauchung oder Zeitdehnung von Audiosignalen wird in Studios eingesetzt, zum Beispiel mit dem Ziel, Wer- 
besendungen auf die vorgesehene Lange zu trimmen. Auch in der Diktiertechnik ist die Anpassung der Wiedergabe- 
geschwindigkeit an die Bedurfntsse bzw. Fahigkeiten der Schreibkraft von Bedeutung. Eine weitere Anwendung 
besteht bei der Echtzeitubertragung von Sprachsignalen, bei der Datenpakete mit variabler VerzGgerung beim EmpfSn- 

15 ger eintreffen. Durch Anwendung der Geschwindigkeitsmodif ikation kann man hier die Uber-Alles-VerzOgerung im Mrt- 
tel geringer halten als das Worst-Case Delay der Obertragungsstrecke, ohne daB ein zu spat eintreffendes Datenpaket 
zu Aussetzern oder anderen, ahnlich stOrenden Effekten fuhren wurde. 

Fur viele Anwendungen ergeben sich neben dem Wunsch nach mGglichst hoher Klangqualitat die folgenden zusatzli- 
chen Anfbrderungen an das Verfahren: 

20 Eine kostengQnstige Echtzeitrealisierung muB erzielbar sein, und es muB zur Laufzeit eine nach MOglichkeit stu- 
fenlose Anderung des Geschwindigkeitsmodifikationsfaktors mOglich sein. Von Vorteil ist ohne Zweifel auch, wenn der 
Algorithmus ohne eine stets fehlerbehaftete P'rtch-Schatzung auskommt. 

Aus "Method for Time or Frequency Compression-Expansion of Speed", von G. Fairbaks und R. P. Jaeger, Inst of 
Radio Engineers Trans, on Audio, Vol. AU-2, No. 1 pp. 7-12, Jan. 1954, sind erste Untersuchungen zur Sprachsignal- 

25 stauchung bzw. Sprachsignaldehnung bekannt. Hauf ig wurden seitdem Frequenzbereichsverfahren eingesetzt - nahe- 
liegend, da, wie eingangs erwdhnt, die Kurzzeitspektraleigenschaften des Sprachsignals erhalten bleiben sollen. Seit 
Mitte der achtziger Jahre sind vergleichsweise einfache im Zeitbereich arbeitende Overlap- Add-Verfahren bekannt, mit 
denen sehr gut Wingende zeitskaiierte Sprachsignale erzeugt werden k&nnen. 

In "Signal Estimation from Modified Short-Time Fourier Transform", von D. W. Griffin, in IEEE Trans. Acoust, 

30 Speech, Signal Processing, Vol. ASSP-32, No. 2, pp. 236-242, Apr. 1984, berichten Griffin und Urn von Experimerrten 
mit einer sehr aufwendigen iterativ arbeitenden Phasenbestimmung. Auf diesen Ansatz nimmt wiederum die VerOffent- 
lichung von S. Roucos und A. M. Wilgus "High Quality Time-Scale Modification for Speech", IEEE Proc. Int. Conf. 
Acoust., Speech, Signal Processing, pp. 493-496, 1985, Bezug, die eine Zeitbereichsmethode vorschlagen, die mittels 
eines Overlap-Add-Ansatzes zeitskaiierte Sprachsignale erzeugt. Bei diesem sogenannten SOLA- Verfahren (SOLA = 

35 Synchronized OverLap-Add) erfolgt eine Synchronisation der in regelmaBigen Abstanden dem Originalsignal entnom- 
menen Abschnitte durch Verschiebung vor der jeweils entsprechenden Fensterung und Addition im Zielsignal. Dies ent- 
spricht im werteren Sinne der Phasenoptimierung, wie sie in den Frequenzbereichsverfahren durchgefuhrt wird. Eng 
mit dem SOLA-Algorithmus verwandt ist das sogenanrrte WSOLA-Verfahren (WSOLA = Waveform Similarity OverLap- 
-Add), das W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for 

40 High Quality Time-Scale Modification of Speed", IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554- 
557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures 
and Evaluation", Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, vorstellen. Der Hauptunter- 
schied zwischen diesen beiden Ansatzen besteht in der Synchronisation, die im WSOLA-Verfahren durch versetztes 
Entnehmen von Segmenten aus dem Originalsignal durchgefuhrt wird, was sich gegenuber dem SOLA-Prinzip vor 

45 all em aufwandsmindernd auswirkt. 
7 

Aufgabe der Erfindung ist es, ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen im Zeitbereich anzu- 
geben, das besonders effizient arbeitet und gegenuber dem Stand der Technik weniger Aufwand erfordert 

Diese Aufgabe wird durch die Merkmale der Anspruche 1 und 2 gelGst. Vorteilhafte Ausgestaltungen der Erfindung 
so sind in der nachfolgenden Beschreibung angegeben. 

Die Erzeugung der mit dem Faktor a zeitskalierten Version y(k) eines Sprachsignals x(k) erfolgt gemaB der Syn- 
these 



55 y(/c)= £ (k+Xia-VL+AJwik-XL) 
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10 



w(k) = 



v(k) fur 

1 fur 

l-v(k-L) fur 

0 sonst 



0<k<N 
N <k<L 
L<k<L+N 



15 Die hierin vorkommende fur k=0, ... , N-1 definierte Funktion v(k) ist dabei sinnvollerweise zwischen ihren Extrema 
v(0)=£ 0 mitO<Eo«1 und v(N-1 )=1-e., mit0<e 1 «1 monotonwachsend. 

Die angegebene w(k)-Definition stellt sicher, daB die fur sinnvolles Overlap-Add notwendige Bedingung 

20 £ w{k-XL) m 1 y/k e {-oo oo} 

X=-co 



erfullt ist. 

25 Die in obiger Syrtthesegleichung enthaltene Verschiebevariable A x ist zwecks der erwahnten Synchronisation aus 

einem "Tderanzbereich" -A^ zu bestimmen. 

Die prinzipielle Vorgehensweise ist wie folgt: 
Aus dem Originalsignal x(k) werden in - abgesehen von einem synch ronisationsbedingten "Jitter" - regelmaBigen aL 
Werte betragenden Abstanden Segmente der Lange L+N entnommen und nach Gewichtung mit w(k) jeweils urn L Abt- 

30 astwerte versetzt aufaddiert. Das auf diese Weise erhaltene Signal y(k) ist gegenuber x(k) urn den Faktor a beschleu- 
nigt, das heiftt, daB eine im Originalsignal x(k) enthaltene AuBerung von K Abtastwerten Lange durch dieses Vorgehen 
auf einen y(k) -Abschnitt der Lange K/a abgebildet, also verkurzt und damit in der Wiedergabe beschleunigt fur a > 1 , 
bzw. verlangert, das heiBt verlangsamt, wird, wenn a < 1 ist. 

Die Synchronisation der zu Oberlappenden Abschnrtte ist fur die resulti erende Klangqualitat von groBer Bedeutung. 

35 Hierzu wird der folgende Ansatz verwendet: Wahrend der Abarbeitung des Verfahrens kann zu jedem dem Signal x(k) 
entnommenen Segment fOr den nachsten Schritt als "Idealsegment'' der urn L Abtastwerte versetzte Abschnitt von x(k) 
angesehen werden, da durch diese Wahl die Overlap-Add-Operation wieder das Originalsignal x(k) reproduzieren 
wurde. Die erwunschte Zeitskalierung erfordert nun aber, daB fur die Overlap-Add-Synthese i. a. ein anderer, gegen- 
Qber dem "Idealsegment" versetzter Abschnitt von x(k) ausgewahlt wird. Die bestmGgliche Synchronisation ist gege- 

40 ben, wenn der fur die Overlap-Add-Operation benutzte Abschnitt gr6Btm6gliche Ahnlichkeit ("Waveform Similarity") mit 
dem "Idealsegment" aufweist 

Als Kriterium fur die Ahnlichkeit der genannten Segmente bieten sich verschiedene MaBe an. Naheliegend ist bei- 
spielsweise die Benutzung des Korrelationskoeffizienten. Wahrend W. Verhelst und M. Roelands in "An Overlap-Add 
Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. 

45 Int Conf. Acoust, Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add 
(WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. on Speech Communication 
and Technology, pp. 337-340, 1 993, f Or die Auswertung des AhnlichkeitsmaBes das komplette Segment der Lange L+N 
herangezogen haben, erscheint es als vollkommen ausreichend, die Berechnung auf den Bereich der N Abtastwerte 
zu beschranken, in dem die Segmente tatsachlich ubertappen. 

so FOr die weiteren Darstellungen ist es hilfreich. die folgende Vektornotation einzufuhren: 

Der N Werte lange Abschnitt des "Idealsegments", in dem die Uberlappung mit dem neu zu bestimmenden Segment 
stattf inden wird, sei mit x bezeichnet, die ersten N Werte des verschobenen Segments mit Xq. Die Gewichtung dieses 
Abschnitts mit der steigenden Flanke des Fensters wird durch Multiplikation dieses Vektors mit einer Diagonalmatrix V 
reprasentiert, die mit den Werten v(0), ... , v(N-1) besetzt ist. Entsprechend wird die Gewichtung des Idealsegmentab- 

55 schnitts x mit der fallenden Flanke des Fensters durch Multiplikation mit 1 - V dargestellt, wobei 1 die NxN-Einheitsma- 
trix bezeichnet. Der im kritischen Uberlappungsbereich aus der Overlap-Add-Synthese resurtierende y(k)-Abschnitt 
lautet damit 



3 
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y=(1-V)x + Vx„ 



Beispielsweise Ia6t sich nun als MaB fur die Ahnlichkeit der hierfoei beteiligten Komponenten eine Kreuzkorrelier- 
tenberechnung gemaS 

C d = x T (1-V) T Vx, 



angeben. Die Maximierung dieses Ausdrucks bezuglich der sich in Xq wiederfindenden Verschiebung 5 e {-A^ 

15 ^max) liefert die fo r das betrachtete Segment im Sinne des angesetzten AhnlichkeitsmaBes optimale Verschiebung A v 
Die Berechnung der C 6 erfordert alie L Abtastwerte 2N Multiplikationen fur die Vorabberechnung des Ausdrucks 

x T (1-V) T V sowie anschlieBend (2A ma)( +1)N Multiplikationen und Additionen. 

Dies stellt gegenuber W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity 

(WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. Int. Conf. Acoust . Speech, Signal Proces- 
20 sing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap- Add (WSOLA) for Time-Scale Modification of 

Speech: Structures and Evaluation" in Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993. eine 

Aufwandsreduktion urn den Faktor zwei dar, der sich fur L>N sogar noch erhflht. Die BeschrSnkung der Ahnlichkeits- 

berechnung auf den Bereich der Uberlappung hat keinerlei negative Auswirkungen auf die Qualitat der zeitskalierten 

Sprachproben. 

25 Ein anderer Ansatz fur die Synchronisation ist, anstelle der Maximierung der "Waveform Similarity" den Fehler zwi- 
schen dem synthetisierten Signal y und dem Originalsignal x zu minimieren. Eine einfache willkurliche Wahl ist, fur die- 
sen Fehler den quadratischen Ausdruck 

E 5 =nx-y0 2 

30 

anzusetzen. 

Bei Vernachiassigung der Vorabberechnungen belSuft sich der fur die Auswertung von E 6 anfallende Aufwand auf 
(aAmax+1 )4N DSP-Operationen alle L Abtastwerte. Hierunter werden solche Operationen verstanden, die ein Signal- 
prozessor mit g&igiger Architektur in einem Schritt abarbeiten kann. 
35 Ein weiterer Ansatz besteht darin, anstelle des absoluten Fehlers den relativen Fehler 

40 

zu minimieren, was als SNR-Maximierung irrterpretiert werden kann. (2A max +1)5N Operationen sind hier vor jeder 
Overlap-Add-Operation erforderlich. 

PatentansprOche 

45 

1 . Verfahren zur Geschwindigkeitsmodif ikation von Sprachsignalen, insbesondere digital isierten Sprachsignalen, bei 
dem 

ein analoges Sprachsignal digitalisiert wird, wodurch ein digital isiertes Sprachsignal entsteht, welches in 

50 einem Speicher gespeichert wird, 

ein Faktor a definiert wird, urn welchen das Sprachsignal veriangert oder verkurzt wird, 
eine Fensterfunktion mit einem ersten steigenden Abschnitt der LSnge N, einem zweiten, sich direkt an den 
ersten Abschnitt anschlieBenden, konstanten Abschnitt der L&nge L und einem dritten, sich direkt an den zwei- 
ten Abschnitt anschlieBenden, fallenden Abschnitt definiert wird, wobei bei einer Uberlagerung des ersten stei- 

55 genden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer 

Addition beider Abschnitte im Uberlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten 
Abschnittes der Fensterfunktion entspricht, 

aus dem digitaJisierten, gespeicherten Sprachsignal in unregelmdBigen Abstdnden einer mittleren LSnge aL 



4 
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Segmente einer Lange L+N entnommen werden, 

diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion 
im Zeitbereich gewichtet werden 

die gewichteten Segmente jeweils urn eine definierte Anzaht von L Abtastwerten versetzt aufaddiert werden, 
wodurch das so entstehende Sprachsignal urn den Faktor a verlangert bzw. urn 1/a verkurzt wird, 
dadurch gekennzelchnet, 

daB nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort 
entnommene, mit der Fensterfunktion gewichtete, Segment mit dem nachfolgend entnommenen, ebenfalls mit 
der Fensterfunktion gewichteten, Segment unter AhnlichkeitsaspeWen verglichen wird, 

- daB zum schnellen Vergleich der Ahnlichkeit der Segmente lediglich der N Werte lange dritte, mit dem fallen- 
den Fensterabschnitt gewichtete, Abschnitt des Segmentes mit dem jeweils ersten, m'rt dem steigenden N 
Werte langen Fensterabschnitt gewichteten Abschnitten des nachfolgenden Segmentes verglichen wird, 

- daB diese Segmente zueinander versetzt aufaddiert werden, wenn die Ahnlichkeit beider vergiichener Seg- 
mentteile maximal ist und 

• daB zur Berechnung der Ahnlichkeit, als deren MaB, eine Korrelation verwendet wird. 

Verfahren zur Geschwindigkeitsmodifikation von Sprachsignal en, insbesondere digitalisierten Sprachsignal en, bei 
dem 

ein anaJoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in 
einem Speicher gespeichert wird, 

ein Faktor a definiert wird, urn welchen das Sprachsignal verlangert Oder verkurzt wird, 
eine Fensterfunktion mit einem ersten steigenden Abschnitt der Lange N, einem zwerten, sich direkt an den 
ersten Abschnitt anschlieBenden, konstanten Abschnitt der Lange L und einem dritten, sich direkt an den zwei- 
ten Abschnitt anschlieBenden, fallenden Abschnitt definiert wird, wobei bei einer Uberlagerung des ersten stei- 
genden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer 
Addition beider Abschnitte im Uberlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zwerten 
Abschnittes der Fensterfunktion entspricht, 

aus dem digitalisierten, gespeicherten Sprachsignal in unregelmaBigen Abstanden einer mittleren Lange aL 
Segmente einer Lange L+N entnommen werden, 

- diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion 
im Zeitbereich gewichtet werden, 

die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, 
wodurch das so entstehende Sprachsignal um den Faktor a verlangert bzw. um 1/a verkurzt wird, 
dadurch gekennzeichnet, 

daB nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort 
entnommene Segment mit dem Resultat der Synth ese mit dem nachfolgend entnommenen Segment vergli- 
chen wird, 

- daB zum schnellen Vergleich der Abweichung des jeweiligen Syntheseresultats vom Originalsignal lediglich 
der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird, 
daB diese Segmente zueinander versetzt aufaddiert werden, wenn die ermrttette Abweichung minimal ist und 

- daB als MaB fOr die Abweichung der relative Fehler oder der absolute quadratische Fehler herangezogen wird. 
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